了解因果关系有助于构建干预措施,以实现特定的目标并在干预下实现预测。随着学习因果关系的越来越重要,因果发现任务已经从使用传统方法推断出潜在的因果结构从观察数据到深度学习涉及的模式识别领域。大量数据的快速积累促进了具有出色可扩展性的因果搜索方法的出现。因果发现方法的现有摘要主要集中在基于约束,分数和FCM的传统方法上,缺乏针对基于深度学习的方法的完美分类和阐述,还缺乏一些考虑和探索因果关系的角度来探索因果发现方法范式。因此,我们根据变量范式将可能的因果发现任务分为三种类型,并分别给出三个任务的定义,定义和实例化每个任务的相关数据集以及同时构建的最终因果模型,然后审查不同任务的主要因果发现方法。最后,我们从不同角度提出了一些路线图,以解决因果发现领域的当前研究差距,并指出未来的研究方向。
translated by 谷歌翻译
情绪原因对提取(ECPE)是一项新的任务,旨在从文档中提取潜在的情绪和相应原因。先前的方法重点是建模成对的关系并取得了令人鼓舞的结果。但是,从根本上象征文档的基本结构的条款与差异关系仍处于研究期。在本文中,我们定义了一个新的条款 - 差异关系。为了学习它,我们提出了一个名为EA-GAT的一般条款级编码模型,该模型包括E-GAT和激活排序。 E-GAT旨在从不同类型的子句中汇总信息;激活排序利用个人情感/原因预测和基于排序的映射将条款推向更有利的表示。由于EA-GAT是一个子句级编码模型,因此可以与任何以前的方法广泛集成。实验结果表明,我们的方法比当前的所有方法在中文和英语基准语料库中都具有显着优势,平均$ 2.1 \%$和$ 1.03 \%$ $。
translated by 谷歌翻译
Tokamak设备创建的核融合能力是作为可持续能源来源的最有希望的方法之一。 Tokamak的一个主要挑战研究领域是预测由执行器线圈和内部Tokamak等离子体的相互作用确定的最后一个封闭的磁通表面(LCF)。这项工作需要高维,高频,高保真,实时工具,这使多种执行器线圈的输入与内部Tokamak等离子体状态相互作用,这使得更加复杂。在这项工作中,我们提出了一种新的机器学习模型,用于从实验性高级超导Tokamak(EAST)重建LCF,该模型从East的实验数据中自动学习。该体系结构可以检查控制策略设计,并将其与Tokamak控制系统集成在一起,以进行实时磁预测。在实时建模测试中,我们的方法在整个放电过程的LCFS重建中达到了99%以上的平均相似性。在离线磁重建中,我们的方法达到了93%以上的平均相似性。
translated by 谷歌翻译
我们专注于在不同情况下在车道检测中桥接域差异,以大大降低自动驾驶的额外注释和重新训练成本。关键因素阻碍了跨域车道检测的性能改善,即常规方法仅着眼于像素损失,同时忽略了泳道的形状和位置验证阶段。为了解决该问题,我们提出了多级域Adaptation(MLDA)框架,这是一种在三个互补语义级别的像素,实例和类别的互补语义级别处理跨域车道检测的新观点。具体而言,在像素级别上,我们建议在自我训练中应用跨级置信度限制,以应对车道和背景的不平衡置信分布。在实例层面上,我们超越像素,将分段车道视为实例,并通过三胞胎学习促进目标域中的判别特征,这有效地重建了车道的语义环境,并有助于减轻特征混乱。在类别级别,我们提出了一个自适应域间嵌入模块,以在自适应过程中利用泳道的先验位置。在两个具有挑战性的数据集(即Tusimple和Culane)中,我们的方法将车道检测性能提高了很大的利润率,与先进的领域适应算法相比,精度分别提高了8.8%和F1级的7.4%。
translated by 谷歌翻译
在本文中,我们提出了一种先进的方法,用于针对单眼3D车道检测的问题,通过在2D至3D车道重建过程下利用几何结构。受到先前方法的启发,我们首先分析了3D车道与其2D表示之间的几何启发式,并提议根据先验的结构进行明确的监督,这使建立车上和车内的关系可以实现,以促进促进。从本地到全球的3D车道的重建。其次,为了减少2D车道表示中的结构损失,我们直接从前视图图像中提取顶视车道信息,从而极大地缓解了以前方法中遥远的车道特征的混淆。此外,我们通过在管道中综合新的培训数据来分割和重建任务,以应对相机姿势和地面斜率的不平衡数据分布,以改善对看不见的数据的概括,以应对我们的管道中的分割和重建任务,以对抗分割和重建任务,从而提出了一种新颖的任务数据增强方法。我们的工作标志着首次尝试使用几何信息到基于DNN的3D车道检测中的尝试,并使其可用于检测超长距离的车道,从而使原始检测范围增加一倍。提出的方法可以由其他框架平稳地采用,而无需额外的成本。实验结果表明,我们的工作表现优于Apollo 3D合成数据集的最先进方法以82 fps的实时速度在不引入额外参数的情况下实时速度为3.8%。
translated by 谷歌翻译
The click-through rate (CTR) prediction task is to predict whether a user will click on the recommended item. As mind-boggling amounts of data are produced online daily, accelerating CTR prediction model training is critical to ensuring an up-to-date model and reducing the training cost. One approach to increase the training speed is to apply large batch training. However, as shown in computer vision and natural language processing tasks, training with a large batch easily suffers from the loss of accuracy. Our experiments show that previous scaling rules fail in the training of CTR prediction neural networks. To tackle this problem, we first theoretically show that different frequencies of ids make it challenging to scale hyperparameters when scaling the batch size. To stabilize the training process in a large batch size setting, we develop the adaptive Column-wise Clipping (CowClip). It enables an easy and effective scaling rule for the embeddings, which keeps the learning rate unchanged and scales the L2 loss. We conduct extensive experiments with four CTR prediction networks on two real-world datasets and successfully scaled 128 times the original batch size without accuracy loss. In particular, for CTR prediction model DeepFM training on the Criteo dataset, our optimization framework enlarges the batch size from 1K to 128K with over 0.1% AUC improvement and reduces training time from 12 hours to 10 minutes on a single V100 GPU. Our code locates at https://github.com/bytedance/LargeBatchCTR.
translated by 谷歌翻译
Vision-Language(V + L)预先润廓模型通过了解图像和文本之间的对齐来支持多媒体应用程序取得了巨大成功。虽然现有的视觉预押模型主要专注于了解文本中的图像或实体中的对象,但它们通常会忽略事件级别的对齐及其参数结构。 %在这项工作中,我们提出了一种对比的学习框架来强制执行愿景 - 语言预押模型来理解事件和相关参数(参与者)角色。为此,我们利用文本信息提取技术来获得事件结构知识,并利用多个提示函数来通过操纵事件结构来对比难度的负面描述。我们还基于最佳传输来设计事件图对齐损耗以捕获事件参数结构。此外,我们收集了一个大型活动的数据集(106,875张图片),用于预磨平,这提供了更具挑战性的图像检索基准,以评估对复杂冗长的句子的理解。实验表明,我们的零射剪辑事件优于在多媒体事件提取中的参数提取中的最先进的监督模型,从而实现了事件提取中的5±绝对f得分增益,以及显着改进零拍摄设置下的各种下游任务。
translated by 谷歌翻译
我们启动了对MLP架构进行了视觉和语言(VL)融合的第一个实证研究。通过对5 VL任务和5个强大的VQA基准测试的广泛实验,我们发现:(i)没有预先训练,使用MLP进行多模式融合,与变压器相比具有明显的性能差距; (ii)但是,VL预培训可以帮助关闭性能差距; (iii)代替重大的多主头注意力,将微小的单臂注意MLPS增加足以实现对变压器的可比性。此外,我们还发现,当在更难的鲁棒VQA基准测试时,MLP和变压器之间的性能差距不会扩大,建议使用MLP融合可以大致呈现与使用变压器相似的程度。这些结果提示MLP可以有效地学会对准从较低级别的编码器中提取的视觉和文本功能,而不依赖于自我关注。基于此,我们提出了一个更大胆的问题:我们可以为VL建模提供全部MLP架构,其中VL融合和视觉编码器都用MLPS替换吗?我们的结果表明,与最先进的全功能VL模型相比,全部MLP VL模型是当它们都获得预先培训的时型vl模型。然而,预先培训ALL-MLP可能令人惊讶地实现比没有预先训练的完整变压器模型更好的平均分数。这表明VL建模的MLP样架构的大规模预培训的潜力,并激发了未来的研究方向,简化了较少的归纳设计偏差的良好的VL建模。我们的代码可公开提供:https://github.com/easonnie/mlp-vil
translated by 谷歌翻译
Logical reasoning of text is an important ability that requires understanding the information present in the text, their interconnections, and then reasoning through them to infer new conclusions. Prior works on improving the logical reasoning ability of language models require complex processing of training data (e.g., aligning symbolic knowledge to text), yielding task-specific data augmentation solutions that restrict the learning of general logical reasoning skills. In this work, we propose APOLLO, an adaptively pretrained language model that has improved logical reasoning abilities. We select a subset of Wikipedia, based on a set of logical inference keywords, for continued pretraining of a language model. We use two self-supervised loss functions: a modified masked language modeling loss where only specific parts-of-speech words, that would likely require more reasoning than basic language understanding, are masked, and a sentence-level classification loss that teaches the model to distinguish between entailment and contradiction types of sentences. The proposed training paradigm is both simple and independent of task formats. We demonstrate the effectiveness of APOLLO by comparing it with prior baselines on two logical reasoning datasets. APOLLO performs comparably on ReClor and outperforms baselines on LogiQA.
translated by 谷歌翻译
We propose Universal Document Processing (UDOP), a foundation Document AI model which unifies text, image, and layout modalities together with varied task formats, including document understanding and generation. UDOP leverages the spatial correlation between textual content and document image to model image, text, and layout modalities with one uniform representation. With a novel Vision-Text-Layout Transformer, UDOP unifies pretraining and multi-domain downstream tasks into a prompt-based sequence generation scheme. UDOP is pretrained on both large-scale unlabeled document corpora using innovative self-supervised objectives and diverse labeled data. UDOP also learns to generate document images from text and layout modalities via masked image reconstruction. To the best of our knowledge, this is the first time in the field of document AI that one model simultaneously achieves high-quality neural document editing and content customization. Our method sets the state-of-the-art on 9 Document AI tasks, e.g., document understanding and QA, across diverse data domains like finance reports, academic papers, and websites. UDOP ranks first on the leaderboard of the Document Understanding Benchmark (DUE).
translated by 谷歌翻译